查看原文
其他

没有一个人工智能模型是安全的

托马斯.克拉伯恩 再说安全
2024-12-01

本文阅读大约需要3分钟;

Chatterbox Labs 测试了八种主要的大型语言模型 ( LLMs ),结果发现所有模型都会产生有害内容,这家总部位于英国的公司提供了一个名为 AIMI 的测试套件,该套件根据“公平性”、“毒性”、“隐私”和“安全性”等各种“支柱”对LLMs进行评级。

在这种情况下,“安全性”指的是模型安全性——抵制发出有害内容——而不是存在潜在可利用的代码缺陷。Chatterbox Labs 首席技术官斯图尔特·巴特斯比 (Stuart Battersby) 解释说:“我们在安全支柱上关注的是这些模型可能造成或可能造成的危害。”

当提示输入文本时, LLMs会尝试以文本输出进行响应(也有可以生成图像或音频的多模式模型)。他们可能有能力制作非法内容,例如被提示提供生物武器的配方。或者他们提供的建议可能会导致受伤或死亡。“组织不希望这些模型做一系列类别的事情,特别是代表他们做的事情,”巴特斯比说。“所以我们的伤害类别包括谈论自残或露骨的色情材料或安全和恶意软件之类的事情。”

GenAI 的 AIMI 安全支柱测试模型在每个危害类别出现一系列 30 个挑战提示时是否会提供有害响应。“有些模特实际上会很乐意回答你这些邪恶的事情,”巴特斯比说。“但是现在的大多数型号,尤其是较新的型号,都内置了某种安全控制装置。”但与任何安全机制一样,人工智能安全机制(有时称为“护栏”)并不总是能捕获所有信息。

“我们在安全支柱上所做的就是我们说,让我们模拟对这个东西的攻击,”巴特斯比说。“对于LLM ,对于语言模型,这意味着以邪恶的方式设计提示。这就是所谓的越狱。实际上,我们还没有遇到过无法以某种方式破解的模型。”

Chatterbox Labs 测试了以下模型:

  1.  Microsoft Phi 3.5 Mini Instruct (3.8b); 
  2. Mistral AI 7b Instruct v0.3;
  3. OpenAI GPT-4o; 
  4. Google Gemma 2 2b Instruct; 
  5. TII Falcon 7b Instruct; 
  6. Anthropic Claude 3.5 Sonnet (20240620); 
  7. Cohere Command R; 
  8. Meta Llama 3.1 8b Instruct.

该公司向The Register提供的报告称:“分析表明,所有测试的主要模型都会产生有害内容。所有危害类别都会产生有害内容。这意味着这些模型中的安全层模型不足以在所有测试的危害类别中生成安全的模型部署。”

补充道:“如果你看像 Anthropic ,他们实际上都做到了较好的安全水准,”巴特斯比说。“因为他们有几个类别,在所有越狱、某些危害类别中,模型会拒绝或重定向它们。因此,无论他们在系统中构建什么,似乎在某些类别中都非常有效,而其他类别则非常有效。”不是。”

The Register 询问 Anthropic 是否有人愿意提供更多有关该公司如何实现人工智能安全的信息。我们收到了 Anthropic 研究通讯主管斯图尔特·里奇 (Stuart Ritchie) 的回复。

The Register  :“Anthropic 已经确立了作为负责任的人工智能公司的地位。根据 Chatterbox Labs 的 AIMI 软件运行的测试,Anthropic 的 Claude 3.5 Sonnet 取得了较好的结果。您能描述一下 Anthropic 与行业其他公司的不同之处吗?”

Ritchie  :“Anthropic 对人工智能开发和安全采取了独特的方法。我们坚定地致力于前沿人工智能系统的实证研究,这对于解决未来高度先进的人工智能系统的潜在风险至关重要。与许多公司不同,我们采用了我们是可扩展监督和面向过程的学习等领域的先驱,旨在创建从根本上更安全、更符合人类价值观的人工智能系统。“重要的是,根据我们的负责任的扩展政策,我们承诺仅在满足严格的安全标准的情况下才开发更先进的模型,并且我们愿意接受外部对我们模型的能力和安全措施的评估。我们是在业界率先开发出如此全面、安全第一的方法。“最后,我们还在机械可解释性方面投入了大量资金,努力真正理解我们模型的内部工作原理。我们最近在可解释性方面取得了一些重大进展,我们乐观地认为这项研究将进一步带来安全突破。”

The Register :“您能详细说明创建模型‘护栏’的过程吗?主要是 RLHF(根据人类反馈进行强化学习)吗?结果在被阻止的响应类型(文本模式范围)或它是否相当广泛和概念化(与特定想法相关的主题)?

Ritchie :“我们对护栏进行建模的方法是多方面的,远远超出了 RLHF 等传统技术。我们开发了“AI监督反馈AI”,这是一种创新方法,用于训练人工智能模型遵循道德原则并通过让它们进行自我监督来安全地行事我们还采用自动和手动来主动识别潜在问题,而不是简单地阻止特定的文本模式,我们专注于训练我们的模型以理解和遵循安全流程。这导致对适当行为有更广泛、更概念化的理解。“随着我们的模型变得更加强大,我们不断评估和完善这些安全技术。我们的目标不仅仅是防止特定的不需要的输出,而是创建对安全和有益行为具有强大、普遍理解的人工智能系统。”

The Register :“Anthropic 在多大程度上认为模型外部存在安全措施?例如,您可以通过微调或外部过滤器来改变模型行为 - 这两种方法都是必要的吗?”

Ritchie :“在 Anthropic,我们制定了多层战略来解决人工智能开发和部署每个阶段的安全问题。“这种多层方法意味着,正如你所建议的,我们确实对模型的行为使用了两种类型的改变。例如,我们使用“AI监督反馈AI”(各种微调)来训练克劳德的角色,确保它能够塑造角色我们还使用各种分类器和过滤器来发现潜在有害或非法的输入——尽管如前所述,我们希望模型能够学会避免对此做出响应。类型的内容,而不必依赖生硬的分类工具。”

The Register :“训练数据的透明度和微调以解决安全问题是否重要?”

Ritchie :“大部分训练过程都是保密的。默认情况下,Anthropic 不会使用用户数据进行训练。”

The Register :“Anthropic 的“AI监督反馈AI”是否达到了预期的影响?帮助人工智能模型自助?”

Ritchie :“AI监督反馈AI”确实显示出了符合我们意图的可喜结果。这种方法提高了人工智能模型的诚实性、避免伤害和任务绩效,有效地帮助他们“自助”。“如上所述,当我们训练克劳德的角色时,我们使用了与“AI监督反馈AI”类似的技术,展示了如何使用该技术以甚至意想不到的方式增强模型——用户真的很欣赏克劳德的个性,我们要感谢“AI监督反馈AI”。

“Anthropic 最近探索了集体宪法人工智能,涉及公众参与制定人工智能宪法。我们征求了美国人口代表性样本的反馈意见,了解我们应该使用微调技术向克劳德传递哪些价值观。这项实验表明,人工智能模型可以在保持绩效的同时有效地融入不同的公共价值观,并强调了更加民主和透明的人工智能发展的潜力,尽管挑战仍然存在,但这种方法代表了人工智能系统与更广泛的社会价值观相一致的重要一步。”

The Register :“Anthropic 正在应对的最紧迫的安全挑战是什么?”

Ritchie :“我们关注的最紧迫的安全挑战之一是对能力日益增强的人工智能系统进行可扩展的监督。随着模型变得更加先进,确保它们与人类价值观和意图保持一致变得更加关键和更加困难。我们正在特别关注当人工智能能力在许多领域可能超越人类水平时,如何保持有效的人类监督。这一挑战与我们在机械可解释性、面向过程的学习和理解人工智能泛化方面的工作相交叉。

“我们正在解决的另一个问题是对抗鲁棒性。这项研究涉及开发技术,使我们的模型大大不易‘越狱’——用户说服模型绕过他们的护栏并产生潜在的有害响应。通过未来的高性能系统,越狱的风险变得越来越大,因此现在开发能够抵御此类攻击的技术非常重要。

“我们正在努力开发强大的方法来指导和评估人工智能的行为,即使在人工智能的推理可能超出人类直接理解的情况下也是如此。这项工作对于确保未来的人工智能系统(无论能力如何)保持安全和有益至关重要。对人类。”

The Register  “您还有什么要补充的吗?”

Ritchie:“我们不仅仅是开发人工智能;我们正在积极塑造一个框架,使其安全、有益地融入社会。这涉及与政策制定者、伦理学家和其他利益相关者的持续合作,以确保我们的工作符合更广泛的社会需求和价值观我们还大力投入在人工智能社区内培养责任文化,倡导全行业的安全标准和实践,并公开分享我们发现的越狱等问题。“最终,我们的目标不仅仅是创建安全的人工智能模型——我们正在努力为道德人工智能开发制定新标准——一场优先考虑人类福祉和长期社会利益的‘力争上游’。” 


继续滑动看下一个
再说安全
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存